hugo@dme.ufrj.brRetirado de https://xkcd.com/1838/
Retirado de https://xkcd.com/2494/
http://millionsongdataset.com/ - base de dados com 280 Gb.
Modelagem dos dados: criação e validação de um modelo para os dados observados. Foco em inferência
Modelagem algorítmica: criação de bons algoritmos para prever novas instâncias observadas. Muitas vezes não lança mão de modelo probabilístico algum para os dados ◄
“Nem melhor nem pior, apenas diferentes!”
Objetivos: Estimar \(r\) a partir de um conjunto de observações \((\mathbf{x}_i, y_i)_{i = 1, \dots, n}\), bem como aferir a qualidade de tal estimativa
Importante: Assumiremos observações i.i.d., ou seja, \((\mathbf{X}_1, Y_1), \dots, (\mathbf{X}_n, Y_n) \sim (\mathbf{X}, Y)\)
\(Y\) qualitativa: problema de regressão
\(Y\) quantitativa: problema de classificação
Figura 2.2 de [ITSL]
Critério para medir o desempenho de uma dada função de predição \(g: \mathbb{R}^p \to \mathbb{R}\)
Suponha que definimos o risco de uma função de predição \(g: \mathbb{R}^d \to \mathbb{R}\) via perda quadrática: \(R_{\mathrm{pred}}(g) = \mathbb{E}[(Y - g(\mathbf{X}))^2]\), em que \((\mathbf{X}, Y)\) é uma nova observação que não foi usada para estimar \(g\). Suponhamos também que medimos o risco de um estimador da função de regressão via perda quadrática: \(R_{\mathrm{reg}}(g) = \mathbb{E}[(r(\mathbf{X}) - g(\mathbf{X}))^2]\). Então \[R_{\mathrm{pred}}(g) = R_{\mathrm{reg}}(g) + \mathbb{E}[\mathbb{V}[Y | \mathbf{X}]].\]
Teorema: \[\begin{align*} \mathbb{E}[(Y - &\widehat{g}(\mathbf{X}))^2 | \mathbf{X} = \mathbf{x}] = \\ &\mathbb{V}[Y | \mathbf{X} = \mathbf{x}] + (r(\mathbf{x}) - \mathbb{E}[\widehat{g}(\mathbf{x})])^2 + \mathbb{V}[\widehat{g}(\mathbf{x})] \end{align*}\]
Aleatoriedade tomada em \(Y\) e no conjunto utilizado para se estimar \(\widehat{g}\)
Notação \(\widehat{g}\) para enfatizar que é uma função dos dados
Best fit polynomial degree: 3